15 research outputs found

    Designing a structured lexicon for document image analysis

    Get PDF
    This paper presents a structured, multi-level architecture of a lexicon which is a central component of our knowledge-based document analysis system. Our system has the task to transform incoming business letters into an equivalent electronic representation automatically. Moreover, partial text analysis and understanding of a letter\u27s body and relevant parts are initiated to enrich the conceptual knowledge about the actual document (e.g., by a classification). In such an application domain, a well-designed lexicon has to consider requirements of both, text recognition and text analysis. For that purpose, we propose an appropriate lexicon architecture and the internal structure of corresponding lexical entries being a prerequisite for successful higher-level interpretations of documents

    HYPERBIS : ein betriebliches Hypermedia-Informationssystem

    Get PDF
    Hypermediasysteme finden in jüngster Zeit immer größere Beachtung, was sich in vielen Konferenz- und Workshopveranstaltungen niederschlägt. In diesem Bericht wird die Entwicklung eines betrieb-lichen Informationssystems unter Verwendung eines Hypermediasystems betrachtet. Die verfolgte Absicht dieses Ansatzes war es, möglichst viele Informationen des DFKI, insbesondere der bestehenden Organisation, des beschäftigten Personals, der durchgeführten Projekte und der benutzten Räumlichkeiten, in einheitlicher Weise auf einem Rechner zu verwalten und bei unterschiedlichen Gelegenheiten wirkungsvoll zu präsentieren. Das System HYPERBIS wird einerseits aus entwicklungstechnischer Sicht und andererseits aus Benutzersicht beschrieben. Zum einen werden die teilweise schwierige Akquisition und Analyse von Informationen über das DFKI sowie die anschließende Abbildung in die Hypermediastrukturen diskutiert. Zum anderen werden ausführlich die komfortable Benutzerschnittstelle und die hilfreichen Wartungsfunktionen erklärt

    Architektur für ein System zur Dokumentanalyse im Unternehmenskontext - Integration von Datenbeständen, Aufbau- und Ablauforganisation

    Get PDF
    Workflowmanagementsysteme werden im Bürobereich verstärkt zur effizienten Geschäftsprozeßabwicklung eingesetzt. Das bereits Mitte der 70er Jahre propagierte papierlose Büro bleibt jedoch gegenwärtig immer noch Utopie. Dieser Widerspruch liegt darin begründet, daß die Handhabung von papierintensiven Vorgängen in hohem Maße abhängig ist von einer Identifkation und Aufbereitung der in den Dokumenten enthaltenen Informationen. Allerdings müssen solche Daten z.B. bei eingehender Post immer noch von Hand eingegeben werden. In diesem Dokument wird die Architektur eines System vorgestellt, das diesen Medienbruch überwinden soll. Techniken aus dem Gebiet der Dokumentanalyse und des Dokumentverstehens werden in den Workftowkontext integriert und nutzen das dort verfügbare Wissen zur Steigerung der Erkennungsqualität. Das Architekturdokument beruht auf einer ebenfalls dokumentierten Anforderungsanalyse (DFKI Dokument D-97-05). Es enthält eine statische und eine dynamische Beschreibung der benötigten Klassenkategorien und erklärt deren Funktionalität anhand eines umfassenden Beispiels

    Anforderungen an ein System zur Dokumentanalyse im Unternehmenskontext : Integration von Datenbeständen, Aufbau- und Ablauforganisation

    Get PDF
    Workflowmanagementsysteme werden im Bürobereich verstärkt zur effizienten Geschäftsprozeßabwicklung eingesetzt. Das bereits Mitte der 70er Jahre propagierte papierlose Büro bleibt jedoch gegenwärtig immer noch Utopie, da auch durch den allgegenwärtigen Einsatz von Computern im Bürobereich der Durchsatz an Schriftstücken nicht gesenkt wird. Insbesondere die Handhabung von papierintensiven Vorgängen ist in hohem Maße abhängig von einer Identifikation und Aufbereitung der in den Dokumenten enthaltenen Informationen. Allerdings müssen solche Daten z. B. bei eingehender Post immer noch von Hand eingegeben werden. In diesem Dokument werden Anforderungen an ein System aufgestellt, das diesen Medienbruch überwinden solI. Techniken aus dem Gebiet der Dokumentanalyse und des Dokumentverstehens werden in den Workflowkontext integriert und nutzen das dort verfügbare Wissen zur Steigerung der Erkennungsqualität. Durch Einschränkung des aktuellen Kontextes - etwa in Form offener Vorgänge - soll eine Erhöhung der Erkennungspräzision erreicht werden. Bei der Beschreibung der Systemanforderungen wurde nach den Richtlinien des V-Modells vorgegangen

    Comparative Evaluation of Techniques for Word Recognition Improvement . . .

    No full text
    Character recognition results are typically post-processed by dictionary look-up methods. Still, the quality of resulting word hypotheses remains lousy. This paper describes and compares three known methods for word-level postprocessing of OCRed documents which all are based on purely statistical means of syntactic language modelling. The three methods compared and tested are described and especially their application to word syntax is related. The implementations have been tested on about 90 printed business letters of different quality. Training of the methods has been undertaken on news paper texts with some 34 millions of running words. Although test set and training set cover different fields of language, the results are quite encouraging and show the methods to be useful in general. 1: Basic Idea and Overview After several decades of research of different approaches and development of well-working systems within the field of optical character recognition (OCR), results of commer..

    From Paper to a Corporate Memory - A First Step

    No full text
    Computer-based corporate memories aim to enable an efficient use of corporate knowledge

    Pi_{ODA} : the paper interface to ODA

    No full text
    In the past, many people have proclaimed the vision of the paperless office, but today offices consume more paper documents than ever before. As computer technology becomes more and more important in daily practice of modern offices, intelligent systems bridging the gap between printed documents and electronic ones, called paper-computer-interfaces, are required. In this report our model-based document analysis system Pi_{ODA} is discussed in detail. Basic ideas of the ODA standard for electronic representation of office documents are the foundation of our document model. Moreover, different knowledge sources essential for the analysis of business letters are incorporated into the Pi_{ODA} model. The system comprises all important analysis tasks. Initially, layout extraction includes a necessary low-level image processing and segmentation to investigate the layout structure of a given document. While logical labeling identifies the logical structure of a business letter, text recognition explores the captured text of logical objects in an expectation-driven manner. By this way, word hypotheses are generated and verified using a dictionary. Finally, a partial text analysis component syntactically checks well-structured text objects, primarily the recipient of a letter. As output, Pi_{ODA} produces an ODA conforming symbolic representation of a document originally being captured on paper. Now, the document is available for any further automatic processing such as filing, retrieval or distribution. The inherent modularity of our system, however, allows a reuse of knowledge sources and constituents of the architecture in other document classes such as forms or cheques. Additionally, Pi_{ODA} is an open and flexible system: improved and new analysis methods can be integrated easy without modifying the overall system architecture